Название базовой системы (платформы): | Apache Hadoop |
Разработчики: | IBM |
Технологии: | BI, Big Data, Data Mining |
Содержание[Свернуть] |
IBM выпустила в конце 2011 года программное обеспечение InfoSphere BigInsights и InfoSphere Streams, которое позволяет клиентам получать быстрое представление о потоках информации в зоне интересов их бизнеса.
BigInsights в приближении
BigInsights - платформа для анализа данных, позволяющая компаниям превращать сложные наборы данных масштаба Интернета в знания. В состав этой платформы входят легко устанавливаемый дистрибутив Apache Hadoop, а также набор связанных инструментов, необходимых для разработки приложений, переноса данных и управления кластером. Благодаря своей простоте и масштабируемости Hadoop, представляющий собой Open Source-реализацию инфраструктуры MapReduce, пользуется заслуженным признанием в различных отраслях промышленности и науки. Помимо Hadoop, в состав BigInsights входят следующие Open Source-технологии (все они, за исключением Jaql, являются проектами Apache Software Foundation):
- Pig - платформа, включающая в себя высокоуровневый язык описания программ, анализирующих большие наборы данных. В состав Pig входит компилятор, преобразующий приложения Pig в последовательности заданий MapReduce, исполняемых в среде Hadoop.
- Hive - решение для организации хранилищ данных, разработанное на основе среды Hadoop. В нем реализованы знакомые принципы реляционных баз данных - таблицы, столбцы, разделы. Также в его состав входит набор SQL-операторов (HiveQL) для работы в неструктурированной среде Hadoop. Запросы Hive компилируются в задания MapReduce, исполняемые в среде Hadoop.
- Jaql - язык запросов с SQL-подобным интерфейсом, разработанный IBM и предназначенный для JavaScript Object Notation (JSON). Jaql отлично поддерживает вложенность, является в высокой степени функционально-ориентированным и чрезвычайно гибким. Этот язык хорошо подходит для работы со слабо структурированными данными; также он служит интерфейсом хранилища столбцов HBase и используется для анализа текста.
- HBase - ориентированная на столбцы не-SQL среда хранения данных, предназначенная для поддержки больших таблиц с малой степенью наполненности в Hadoop.
- Flume - распределенная, надежная и доступная служба, предназначенная для эффективного перемещения больших объемов генерируемых данных. Flume хорошо подходит для получения журналов событий из нескольких систем и их перемещения в файловую систему Hadoop (Hadoop Distributed File System, HDFS) по мере их генерации.
- Lucene - библиотека поисковой системы, обеспечивающая высокую производительность и полноценный текстовый поиск.
- Avro - технология последовательного упорядочивания данных, использующая JSON для определения типов данных и протоколов. Упорядочивает данные в компактном двоичном формате.
- ZooKeeper - централизованная служба, предназначенная для поддержки конфигурационной информации и именования; обеспечивает распределенную синхронизацию и групповое обслуживание.
- Oozie - система планирования поточной обработки заданий, предназначенная для организации и управления выполнением заданий Apache Hadoop.
В дополнение к вышеперечисленным продуктам в дистрибутив BigInsights включены следующие технологии IBM:
- BigSheets - браузерный интерфейс в виде электронной таблицы, предназначенный для поиска и анализа данных и использующий всю мощь Hadoop; позволяет пользователям легко собирать и анализировать данные. Содержит встроенные программы просмотра данных, умеющие работать с несколькими распространенными форматами, включая JSON, CSV (значения, разделенные запятыми) и TSV (значения, разделенные знаками табуляции).
- Text analytics - предварительно собранная библиотека текстовых аннотаторов для распространенных бизнес- объектов. Содержит богатый язык и инструментарий для создания пользовательских аннотаторов местоположений.
- Adaptive MapReduce - решение, разработанное IBM Research и предназначенное для ускорения выполнения небольших заданий MapReduce путем изменения способа их обработки.
Платформа InfoSphere
InfoSphere - всесторонняя платформа по интеграции информации, включающая в себя средства хранения и анализа данных, средства интеграции информации, средства управления мастер-данными, средства управления жизненным циклом, а также средства защиты и обеспечения конфиденциальности данных. InfoSphere делает процесс разработки приложений более эффективным, позволяя организациям экономить время, снижать затраты на интеграцию и повышать качество информации.
Продукт BigInsights, являясь частью платформы IBM Big Data, содержит точки интеграции с другими ее компонентами, включая системы хранения и интеграции данных, механизмы управления и сторонние инструменты для анализа данных. BigInsights возможно интегрировать с платформой InfoSphere Streams.Олег Чумаков, «АРБАЙТ»: В 2024 ПК и серверы ARBYTE закупали крупнейшие компании страны
Новая парадигма вычислений
Потоковые вычисления - новая парадигма, потребность в которой вызвана новыми сценариями генерации данных - повсеместное использование мобильных устройств, службы по определению местоположения и широкая распространенность всевозможных датчиков. Все это породило острую потребность в масштабируемых вычислительных платформах и параллельных архитектурах, способных обрабатывать огромные объемы генерируемых потоковых данных.
Технологии BigInsights не подходят для обработки потоковых данных в реальном времени, поскольку ориентированы в основном на пакетную обработку статичных данных. При обработке статичных данных ответом на запрос " Выбрать всех пользователей, подключавшихся к сети " будет являться один результирующий набор значений. При обработке потоковых данных в реальном времени можно выполнять непрерывный запрос, например " Выбрать всех пользователей, подключавшихся к сети за последние 10 минут ". Этот запрос будет непрерывно обновлять результаты. В мире статичных данных пользователь будет искать пресловутую иголку в стоге сена, тогда как в мире потоковых данных он будет искать эту иголку по мере того, как ветер сдувает сено со стога.
На рисунке проиллюстрирована разница между вычислениями, выполняемыми над статичными данными, и вычислениями, выполняемыми над потоковыми данными.
При обработке статичных данных (левая часть рисунка) выполняются запросы к статичным данным. При обработке потоковых данных (правая часть рисунка) данные непрерывно проходят через статические запросы.
Платформа IBM InfoSphere Streams поддерживает обработку потоковых данных в реальном времени, обеспечивая периодическое обновление результатов непрерывных запросов. Нужные знания могут быть извлечены из потоков данных, которые еще находятся в движении.
Заказчик ![]() | Интегратор ![]() | Год ![]() | Проект ![]() |
---|---|---|---|
- Аэрофлот | Интегро Текнолоджиз (Integro Technologies) | 2017.11 | ![]() |
- Аэрофлот | Техносерв Консалтинг | 2016.09 | ![]() |
- МИЭМ НИУ ВШЭ Московский институт электроники и математики | ЕС-лизинг, IBM Россия (ИБМ Восточная Европа и Азия) | 2015.11 | ![]() |
Подрядчики-лидеры по количеству проектов
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
Распределение систем по количеству проектов, не включая партнерские решения
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
Подрядчики-лидеры по количеству проектов
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
Данные не найдены
Распределение систем по количеству проектов, не включая партнерские решения
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)